YOLOv9 (2024)

1. 심층 신경망의 정보 손실 문제와 YOLOv9의 등장

1.1 심층 신경망의 근본적 도전: 정보 병목 현상

현대의 심층 학습(Deep Learning) 방법론은 모델의 예측 결과가 실제 정답(Ground Truth)에 최대한 근접하도록 정교한 목적 함수(Objective Function)를 설계하는 데 초점을 맞추고 있다.1 이와 동시에, 예측에 필요한 충분한 정보를 효율적으로 획득할 수 있는 최적의 신경망 아키텍처를 설계하는 것 또한 중요한 연구 과제이다. 그러나 기존의 많은 연구는 심층 신경망(Deep Neural Network, DNN)이 가진 내재적 한계를 간과하는 경향이 있었다. 바로 입력 데이터가 네트워크의 여러 계층을 거치며 특징 추출(Feature Extraction)과 공간적 변환(Spatial Transformation)을 겪는 과정에서 방대한 양의 정보가 필연적으로 손실된다는 사실이다.1

이러한 현상은 정보 이론(Information Theory)에 기반한 ‘정보 병목(Information Bottleneck)’ 원리로 설명될 수 있다.3 정보 병목 원리는 데이터가 네트워크의 순차적인 계층을 통과할수록 원본 입력 데이터가 가진 정보량이 점진적으로 감소함을 수학적으로 규명한다. 상호 정보량(Mutual Information)을 나타내는 I를 사용하여 이 원리를 표현하면 다음과 같다.4
I(X, X) \ge I(X, f_{\theta}(X)) \ge I(X, g_{\phi}(f_{\theta}(X)))
여기서 X는 입력 데이터, f_{\theta}g_{\phi}는 각각 파라미터 \theta\phi를 갖는 신경망의 변환 함수를 의미한다. 이 수식은 변환 함수를 거칠 때마다 원본 X에 대한 정보량이 감소하거나 유지될 뿐, 결코 증가할 수 없음을 명확히 보여준다. 심층 신경망의 깊이가 깊어질수록 이러한 정보 손실은 누적되어 최종 계층에서는 입력과 목표(Target) 간의 관계를 정확히 매핑하기에 불충분한 정보만 남게 될 수 있다. 이는 결국 신뢰할 수 없는 경사(Unreliable Gradient)를 생성하여 모델의 학습 과정을 저해하고, 수렴(Convergence)을 방해하며, 궁극적으로는 모델의 성능 저하를 야기하는 근본적인 원인이 된다.3

이러한 정보 손실 문제에 대한 전통적인 해결책 중 하나는 모델의 파라미터 수를 늘려 표현력을 높이는 것이었다. 더 큰 모델은 더 복잡하고 포괄적인 데이터 변환을 수행할 수 있어, 정보 손실을 줄이고 목표 매핑에 필요한 정보를 보존할 가능성이 커진다.3 그러나 이 접근법은 단순히 모델의 크기와 계산 비용을 증가시킬 뿐, 매우 깊은 네트워크에서 발생하는 신뢰성 없는 경사 문제 자체를 근본적으로 해결하지는 못한다. 따라서 심층 신경망의 성능을 한 단계 더 끌어올리기 위해서는 정보 손실 문제를 보다 직접적으로 다루는 새로운 방법론이 필요했다.

1.2. YOLO 계열의 진화와 YOLOv9의 연구 목표

실시간 객체 탐지(Real-time Object Detection) 분야에서 YOLO(You Only Look Once) 계열의 모델들은 지속적인 발전을 거듭하며 산업 표준으로 자리매김했다.5 초기 YOLO가 단일 패스(Single-pass) 탐지라는 혁신적인 개념을 제시한 이래로, 후속 버전들은 CSPNet(Cross Stage Partial Network), PANet(Path Aggregation Network), ELAN(Efficient Layer Aggregation Network) 등 당대의 최신 기술들을 적극적으로 통합하며 성능과 효율성을 개선해왔다.5 예를 들어, YOLOv4와 YOLOv5는 다양한 학습 기법(Bag of Freebies/Specials)과 효율적인 백본 아키텍처를 결합하여 속도와 정확도의 균형을 맞추는 데 주력했다.5

이러한 진화의 흐름 속에서 등장한 YOLOv9은 기존의 패러다임에서 한 걸음 더 나아간다. YOLOv9은 단순히 아키텍처를 개선하거나 새로운 모듈을 추가하는 방식이 아닌, 앞서 언급된 심층 신경망의 근본적인 문제, 즉 정보 병목 현상을 해결하는 것을 핵심 연구 목표로 설정했다.1 논문의 제목인 “프로그래밍 가능 경사 정보를 사용하여 배우고 싶은 것을 배우기(Learning What You Want to Learn Using Programmable Gradient Information)“는 이러한 연구 방향성을 명확하게 보여준다.1 YOLOv9의 개발진은 모델이 학습 과정에서 손실 없이 완전한 정보에 접근할 수 있다면, 보다 정확하고 신뢰할 수 있는 학습이 가능해질 것이라고 보았다.

이 목표를 달성하기 위해 YOLOv9은 두 가지 핵심적인 혁신 기술을 제안한다. 첫째는 ’프로그래밍 가능 경사 정보(Programmable Gradient Information, PGI)’이며, 둘째는 ’일반화된 효율적 계층 집합 네트워크(Generalized Efficient Layer Aggregation Network, GELAN)’이다.1 PGI는 학습 과정에서 정보 흐름을 제어하여 신뢰성 있는 경사를 생성하는 새로운 훈련 방법론이며, GELAN은 경사 경로를 최적화하여 설계된 경량화된 고효율 네트워크 아키텍처이다.

이러한 접근 방식은 YOLO 개발의 방향성이 중요한 전환점을 맞이했음을 시사한다. 이전 버전들이 주로 경험적인 아키텍처 탐색과 최신 부품의 통합을 통해 성능을 개선했다면, YOLOv9은 정보 이론이라는 학술적 토대 위에서 심층 학습의 근본적인 한계를 극복하려는 시도이다. 이는 아키텍처의 부분적 수정(Architectural Tinkering)을 넘어, 근본적인 문제 해결(Foundational Problem-Solving)으로 나아가는 연구 전략의 성숙을 의미하며, YOLOv9을 단순한 업데이트가 아닌 중요한 학술적 기여로 평가할 수 있는 이유가 된다.

II. 이론적 배경: 정보 병목과 가역 함수

YOLOv9의 핵심 아이디어를 이해하기 위해서는 그 기반이 되는 두 가지 이론적 개념, 즉 정보 병목 원리와 가역 함수에 대한 깊이 있는 고찰이 선행되어야 한다. 이 두 개념은 심층 신경망에서 정보가 어떻게 손실되는지를 설명하고, 그에 대한 이상적인 해결책을 제시하며, YOLOv9의 PGI가 왜 그렇게 설계되었는지에 대한 이론적 근거를 제공한다.

2.1. 정보 병목 원리(Information Bottleneck Principle)의 수학적 고찰

정보 병목 원리는 앞서 언급했듯이, 심층 신경망의 순방향(Feed-forward) 연산 과정에서 정보 손실이 필연적으로 발생함을 설명하는 이론이다.3 이 원리는 데이터 X와 목표 변수 Y 사이의 상호 정보량 I(X; Y)가 변환 함수 f_{\theta}(X)를 거친 후의 상호 정보량 I(f_{\theta}(X); Y)보다 크거나 같다는, 즉 I(X; Y) \ge I(f_{\theta}(X); Y)라는 데이터 처리 부등식(Data Processing Inequality)에 근거한다. 이는 어떠한 데이터 처리 과정도 원본 데이터가 가진 특정 변수에 대한 정보량을 증가시킬 수 없음을 의미한다.

심층 신경망은 여러 개의 변환 함수가 연쇄적으로 적용되는 구조이므로, 각 계층을 통과할 때마다 정보 손실이 누적된다. 이는 YOLOv9 논문에서 제시된 수식 I(X, X) \ge I(X, f_{\theta}(X)) \ge I(X, g_{\phi}(f_{\theta}(X)))로 명확하게 표현된다.4 이 수식은 네트워크의 깊이가 깊어질수록 출력 특징(Feature)이 원본 입력 X에 대해 가지는 정보량이 단조적으로 감소함을 보여준다.

이러한 정보 손실은 두 가지 주요 문제를 야기한다.

첫째, 네트워크의 최종단에서는 목표 예측에 필요한 핵심 정보가 이미 소실되었을 수 있다. 예를 들어, 객체 탐지에서 작은 객체의 미세한 질감이나 경계 정보가 초기 계층에서 사라진다면, 후반 계층에서는 이를 복원할 방법이 없다.

둘째, 부정확하거나 불완전한 정보를 바탕으로 계산된 손실(Loss)은 역전파(Backpropagation) 과정에서 신뢰할 수 없는 경사를 생성한다. 이러한 경사는 네트워크 가중치를 잘못된 방향으로 업데이트하게 만들어 모델의 수렴을 방해하거나, 지역 최적점(Local Minima)에 빠지게 할 수 있다.3 특히 파라미터 수가 제한적인 경량 모델의 경우, 정보 손실 문제는 더욱 심각하게 나타나 성능 저하의 주된 요인이 된다.4 따라서 정보 병목 현상은 심층 신경망, 특히 매우 깊거나 가벼운 모델의 성능을 제한하는 근본적인 제약 조건으로 작용한다.

2.2. 가역 함수(Reversible Functions)를 통한 정보 보존

정보 병목 문제에 대한 이론적으로 가장 이상적인 해결책은 가역 함수(Reversible Function)를 사용하는 것이다.3 어떤 함수 r_{\psi}(X)가 역함수 v_{\zeta}를 가져서 원래의 입력 X를 완벽하게 복원할 수 있을 때, 즉 다음의 관계를 만족할 때, 이 함수를 가역적이라고 한다.4
X = v_{\zeta}(r_{\psi}(X))
여기서 \psi\zeta는 각각 가역 함수와 그 역함수의 파라미터를 나타낸다. 가역 함수로 구성된 신경망은 이론적으로 정보 손실 없이 데이터를 처리할 수 있다. 입력 정보가 모든 계층을 통해 온전히 보존되므로, 네트워크는 완전한 정보를 바탕으로 예측을 수행하고 가중치를 업데이트할 수 있다. PreAct ResNet과 같은 일부 아키텍처는 잔차 연결(Residual Connection)을 통해 이러한 가역성의 원리를 일부 활용하여, 매우 깊은 네트워크에서도 안정적인 학습과 수렴을 가능하게 했다.3

하지만 신경망 전체를 가역 함수로 설계하는 것에는 명백한 한계가 존재한다. 첫째, 추론(Inference) 시 계산 비용이 크게 증가할 수 있다. 역변환을 위한 추가적인 연산이나 정보 저장을 위한 메모리가 필요하기 때문이다. 둘째, 더 근본적으로, 객체 탐지나 이미지 분류와 같은 복잡한 과업은 본질적으로 비가역적인(Non-invertible) 정보 압축 과정이다. 즉, 수많은 픽셀 정보로부터 ‘고양이’ 또는 ’자동차’라는 추상적인 개념을 추출하는 것은 불필요한 정보를 ’손실’시키는 과정이기도 하다. 만약 네트워크가 모든 정보를 보존하도록 강제된다면, 이러한 고수준의 추상적 특징을 학습하는 능력이 저해될 수 있다.3

결국, 딥러닝 모델 설계에는 ’정보 보존’과 ‘특징 변환’ 사이에 근본적인 긴장 관계(Tension)가 존재한다. 완전한 가역 네트워크는 모든 정보를 보존하지만, 효과적인 특징을 학습하지 못할 수 있다. 반면, 손실이 큰 네트워크는 추상적인 특징을 잘 학습하지만, 신뢰할 수 없는 경사 문제로 고통받는다. YOLOv9의 PGI는 이러한 딜레마를 해결하기 위한 정교한 공학적 타협안으로 볼 수 있다. PGI는 가역 함수의 이점을 학습 과정, 특히 경사 계산에 선택적으로 활용하면서도, 추론 시에는 그로 인한 비용을 발생시키지 않는 실용적인 접근법을 채택했다. 이는 이론적 이상과 현실적 제약 사이의 균형을 맞추려는 시도이며, YOLOv9의 핵심적인 설계 철학을 반영한다.

III. 핵심 기술 1: 프로그래밍 가능 경사 정보 (PGI)

YOLOv9의 가장 핵심적인 기여는 ’프로그래밍 가능 경사 정보(Programmable Gradient Information, PGI)’라는 새로운 학습 프레임워크를 제안한 것이다. PGI는 정보 병목 현상으로 인해 발생하는 불완전한 정보 문제를 해결하고, 모델이 목적 함수를 계산하는 데 필요한 완전한 입력 정보를 제공하여 신뢰성 있는 경사를 생성하는 것을 목표로 한다.1 이를 통해 모델의 가중치 업데이트가 보다 정확하고 효율적으로 이루어지도록 돕는다.

3.1. PGI의 개념과 3대 구성요소

PGI는 단일 모듈이 아닌, 세 가지 유기적인 구성요소로 이루어진 종합적인 시스템이다. 이 구성요소들은 각각 심층 신경망의 다른 부분에서 발생하는 정보 손실 문제를 해결하기 위해 설계되었다.3

  1. 메인 분기 (Main Branch): 실제 추론에 사용되는 주된 네트워크 경로이다. PGI의 다른 구성요소들은 학습 과정에만 관여하므로, 메인 분기는 추론 시 어떠한 추가적인 계산 비용도 발생시키지 않는다.
  2. 보조 가역 분기 (Auxiliary Reversible Branch): 네트워크의 깊이가 깊어짐에 따라 발생하는 정보 손실을 해결하기 위한 장치이다. 가역 함수의 원리를 이용하여 학습 중에 완전한 정보 흐름을 유지하고 신뢰성 있는 경사를 생성하는 역할을 한다.
  3. 다단계 보조 정보 (Multi-level Auxiliary Information): 특징 피라미드 네트워크(Feature Pyramid Network)와 같이 여러 예측 헤드를 사용하는 구조에서 발생하는 ‘정보 단편화(Information Fragmentation)’ 문제를 해결한다.

PGI의 전체적인 구조는 학습 과정에서 모델 주변에 정교한 ’비계(Scaffolding)’를 설치하는 것과 비유할 수 있다. 이 비계(보조 분기 및 보조 정보 네트워크)는 메인 네트워크가 올바른 방향으로 견고하게 구축되도록 완벽하고 완전한 경사 정보를 제공한다. 학습이 완료된 후에는 이 비계를 모두 제거하여, 최종적으로는 가볍고 효율적이면서도 매우 잘 훈련된 추론 네트워크만 남게 된다. 이러한 ‘학습 비계’ 패러다임은 학습에 필요한 복잡성과 배포에 필요한 효율성을 분리하는 강력하고 일반적인 전략이 될 수 있으며, 특히 경사 문제가 발생하기 쉬운 매우 깊거나 가벼운 모델을 훈련시키는 데 효과적일 수 있다.

3.2. 보조 가역 분기 (Auxiliary Reversible Branch): 훈련 시 정보 흐름 보존

심층 신경망에서 정보 손실이 누적되면, 모델은 불완전한 특징을 바탕으로 예측을 학습하게 되어 실제로는 존재하지 않는 ’허위 상관관계(False Correlation)’를 학습할 위험이 있다.3 예를 들어, 특정 배경과 객체가 우연히 자주 함께 나타나는 데이터셋에서 배경의 일부 특징이 손실되면, 모델은 남은 배경 특징과 객체를 연관 지어 학습할 수 있다.

보조 가역 분기는 이러한 문제를 해결하기 위해 도입되었다. 이 분기는 가역 함수의 개념을 차용하여 입력 데이터로부터 목표에 이르기까지 정보가 손실되지 않는 경로를 학습 중에 추가로 유지한다.9 이 경로를 통해 완전한 정보가 보존되므로, 이를 기반으로 생성된 경사는 매우 신뢰성이 높다.

하지만 앞서 논의했듯이, 가역 아키텍처를 메인 분기에 직접 통합하는 것은 추론 비용을 크게 증가시키는 문제가 있다. PGI는 이 문제를 매우 독창적인 방식으로 해결한다. 가역 분기를 메인 분기와 병합하는 대신, ’심층 지도(Deep Supervision)’의 확장된 형태로 취급한다.3 즉, 보조 가역 분기는 독립적으로 손실을 계산하고, 이 과정에서 생성된 신뢰도 높은 경사 정보를 메인 분기의 학습에 ’주입’하는 역할을 한다. 메인 분기는 이 양질의 경사 정보를 통해 중요한 특징을 더 효과적으로 학습할 수 있게 된다.

가장 중요한 점은 이 보조 가역 분기가 오직 학습 시에만 활성화되고, 추론 시에는 완전히 제거된다는 것이다.3 이로써 YOLOv9은 가역 함수의 정보 보존이라는 강력한 이점을 취하면서도, 추론 성능 저하라는 비용은 지불하지 않는 실용적인 균형을 달성했다. 이 설계 덕분에 PGI는 상대적으로 얕은 네트워크에도 효과적으로 적용될 수 있다.3

3.3. 다단계 보조 정보 (Multi-level Auxiliary Information): 특징 피라미드의 정보 단편화 해결

현대의 객체 탐지기는 다양한 크기의 객체를 탐지하기 위해 FPN이나 PANet과 같은 특징 피라미드 구조를 널리 사용한다. 이 구조는 네트워크의 여러 깊이에서 추출된 특징 맵을 사용하여 각각 다른 크기의 객체를 예측하는 여러 개의 예측 헤드(Prediction Head)를 둔다. 이러한 구조에 심층 지도를 적용할 경우, 각 예측 헤드는 자신에게 할당된 특정 스케일의 정보에만 주로 의존하여 학습하게 된다. 이는 ‘정보 단편화’ 문제를 야기하는데, 예를 들어 큰 객체를 탐지하는 헤드는 작은 객체에 대한 정보를 거의 받지 못하고, 반대의 경우도 마찬가지다. 이로 인해 전체적인 학습이 편향되고 비효율적으로 진행될 수 있다.3

PGI의 다단계 보조 정보 구성요소는 이 문제를 해결하기 위해 설계되었다. 이 구성요소는 특징 피라미드의 여러 계층 사이에 ’통합 네트워크(Integration Network)’를 추가한다.3 이 통합 네트워크는 모든 예측 헤드로부터 발생한 경사 정보를 하나로 병합(Merge)하는 역할을 한다. 병합된 경사 정보는 모든 크기의 객체에 대한 포괄적인 정보를 담고 있으며, 이 정보가 다시 특징 피라미드의 각 계층과 메인 분기로 전달된다.

결과적으로, 특징 피라미드의 모든 계층은 특정 스케일에 국한되지 않은, 전체 목표 객체에 대한 종합적인 정보를 바탕으로 학습을 진행할 수 있게 된다.9 이는 메인 분기가 다양한 크기의 모든 객체에 대해 일관되고 편향되지 않은 예측을 학습하도록 유도하며, 심층 지도에서 발생하는 정보 단편화 문제를 효과적으로 완화한다. 이처럼 다단계 보조 정보는 PGI가 객체 탐지라는 특정 과업에 고도로 최적화된 솔루션임을 보여주는 중요한 부분이다.

IV. 핵심 기술 2: 일반화된 효율적 계층 집합 네트워크 (GELAN)

YOLOv9의 또 다른 핵심 기술은 새로운 경량 네트워크 아키텍처인 ’일반화된 효율적 계층 집합 네트워크(Generalized Efficient Layer Aggregation Network, GELAN)’이다. PGI가 학습 방법론의 혁신이라면, GELAN은 그 방법론을 효과적으로 뒷받침하는 하드웨어, 즉 네트워크 구조의 혁신이라 할 수 있다. GELAN은 특히 파라미터 활용도와 계산 효율성을 극대화하는 데 초점을 맞추어 설계되었다.4

4.1. 경사 경로 계획(Gradient Path Planning) 기반 설계

GELAN의 설계 철학은 ’경사 경로 계획(Gradient Path Planning)’에 기반한다.1 이는 네트워크 아키텍처를 설계할 때, 정보가 순방향으로 효율적으로 흐를 뿐만 아니라, 경사가 역방향으로 손실 없이 잘 전파될 수 있는 경로를 명시적으로 고려하는 것을 의미한다. 효과적인 학습을 위해서는 안정적인 경사 흐름이 필수적이기 때문이다.

이러한 철학은 이전의 성공적인 아키텍처들로부터 영감을 받았다. 대표적으로 CSPNet은 특징 맵을 두 경로로 분할한 뒤 마지막에 병합함으로써, 경사 정보가 여러 경로를 통해 흐르도록 하여 중복 계산을 줄이고 경사 소실(Vanishing Gradient) 문제를 완화했다.11 ELAN은 계층 집합(Layer Aggregation) 구조를 통해 여러 계층의 특징을 효율적으로 결합하여 네트워크의 학습 능력을 강화했다. GELAN은 이 두 아키텍처의 장점을 계승하고 확장하여, 더욱 효율적이고 강력한 특징 추출 및 경사 전파 구조를 구현했다.11

4.2. GELAN의 구조와 유연성

GELAN의 가장 큰 구조적 특징은 ’일반화(Generalized)’라는 이름에서 알 수 있듯이 높은 유연성과 확장성에 있다. 기존의 ELAN이 특정 종류의 연산 블록(Computational Block)만을 사용했던 것과 달리, GELAN은 다양한 종류의 연산 블록을 자유롭게 통합할 수 있도록 설계되었다.11

YOLOv9 개발팀은 GELAN의 구성 요소로 어떤 블록이 가장 적합한지 결정하기 위해 체계적인 소거법 연구(Ablation Study)를 수행했다. 연구에서는 표준 컨볼루션(Conv), ResBlock, DarkBlock, CSPBlock 등 다양한 블록을 테스트했다.1 그 결과, CSPNet의 원리를 적용한 CSP-ELAN 블록이 가장 뛰어난 성능을 보였다. CSP-ELAN은 다른 블록에 비해 파라미터 수와 계산량을 줄이면서도 평균 정밀도(AP)를 0.7% 향상시키는 등 가장 효율적인 트레이드오프를 제공했다. 이에 따라 YOLOv9의 GELAN은 CSP-ELAN을 기본 구성 단위로 채택하게 되었다.

또한, GELAN은 네트워크의 깊이 변화에 민감하지 않다는 안정성을 보여주었다. 소거법 연구에 따르면, ELAN 블록이나 CSP 블록의 깊이를 2 이상으로 늘렸을 때, 파라미터 수, 계산량, 그리고 정확도가 거의 선형적으로 증가하는 안정적인 확장성을 보였다.1 이는 개발자가 특정 하드웨어나 애플리케이션의 요구사항에 맞춰 네트워크의 깊이를 유연하게 조절하면서도 성능의 급격한 저하 없이 안정적인 결과를 기대할 수 있음을 의미한다.4

4.3. 전통적 컨볼루션을 통한 파라미터 효율 극대화

GELAN과 관련하여 가장 흥미롭고 중요한 발견 중 하나는, 전통적인 컨볼루션(Conventional Convolution) 연산자만을 사용하여 최신 기술을 능가하는 파라미터 효율성을 달성했다는 점이다.1 이는 최근 경량 모델 설계의 주류를 이루고 있는 깊이별 분리 컨볼루션(Depth-wise Separable Convolution)의 효율성에 대한 통념에 도전하는 결과이다.

깊이별 분리 컨볼루션은 MobileNet과 같은 모델에서 처음 제안된 이후, 적은 파라미터와 계산량으로 유사한 성능을 낼 수 있다는 장점 때문에 경량 모델의 표준 부품처럼 여겨져 왔다. 그러나 YOLOv9의 연구 결과는 이러한 미시적인 연산자 수준의 최적화보다, 거시적인 네트워크 토폴로지, 즉 계층들이 어떻게 연결되고 정보가 어떻게 집계되는지에 대한 설계가 파라미터 효율성에 더 큰 영향을 미칠 수 있음을 시사한다.

GELAN의 성공은 경사 경로 계획과 CSP-ELAN의 효율적인 특징 재사용 구조 덕분이다. 지능적으로 설계된 네트워크 구조는 각 파라미터가 더 많은 정보를 학습하고 표현하도록 유도한다. 따라서 개별 연산(표준 컨볼루션)이 깊이별 컨볼루션보다 다소 무겁더라도, 전체 네트워크 차원에서는 더 적은 수의 파라미터로 더 높은 성능을 달성할 수 있게 되는 것이다. 이는 향후 효율적인 네트워크 설계 연구가 개별 연산자의 최적화를 넘어, 네트워크 전체의 정보 및 경사 흐름을 최적화하는 거시적인 관점으로 나아가야 할 수도 있다는 중요한 방향성을 제시한다. GELAN은 이러한 주장을 뒷받침하는 강력한 실증 사례라 할 수 있다.

V. YOLOv9 아키텍처 심층 분석

YOLOv9의 성능은 PGI라는 혁신적인 학습 방법론과 GELAN이라는 효율적인 네트워크 아키텍처의 유기적인 결합을 통해 달성된다. 이 두 핵심 기술이 모델의 주요 구성 요소인 백본(Backbone), 넥(Neck), 헤드(Head)에 어떻게 통합되어 시너지를 내는지 심층적으로 분석할 필요가 있다. YOLOv9은 단순히 기존 아키텍처에 새로운 학습법을 적용한 것이 아니라, 아키텍처와 학습법이 처음부터 상호보완적으로 함께 설계된 결과물이다.

5.1. Backbone: GELAN 기반의 특징 추출

백본은 입력 이미지로부터 다양한 스케일의 의미론적 특징(Semantic Feature)을 추출하는 역할을 담당하는 네트워크의 근간이다. YOLOv9의 백본은 앞서 설명한 GELAN 아키텍처를 기반으로 구축되었다.11

백본의 주요 구성 블록은 RepNCSPELAN4이다. 이 블록은 RepVGG 아키텍처에서 영감을 받은 RepConv 구조와 CSP 구조, 그리고 ELAN 구조를 결합한 형태이다.17 RepConv는 학습 시에는 여러 분기(Branch)를 두어 표현력을 극대화하고, 추론 시에는 이 분기들을 단일 3x3 컨볼루션으로 재파라미터화(Re-parameterization)하여 속도를 높이는 기법이다. RepNCSPELAN4 블록은 이러한 효율적인 구조를 통해 계층적 특징을 효과적으로 표현하고 추출한다.

특징 맵의 공간적 해상도를 줄이는 다운샘플링(Downsampling) 과정에서는 ADown이라는 특화된 블록이 사용된다.17 이 블록은 정보 손실을 최소화하면서 효율적으로 특징 맵의 크기를 줄이도록 설계되었다.

GELAN 기반 백본의 우수성은 실험적으로도 증명되었다. 논문에 제시된 특징 맵 시각화 결과를 보면, GELAN 백본은 ResNet이나 CSPNet과 같은 다른 아키텍처에 비해 네트워크의 깊은 곳에서도 객체의 경계 정보를 훨씬 더 선명하게 유지하는 것을 확인할 수 있다.1 이는 GELAN의 경사 경로 계획 설계가 정보 보존에 효과적으로 기여하고 있음을 시각적으로 보여주는 증거이다.

5.2. Neck: PGI를 활용한 특징 융합

넥은 백본의 여러 다른 깊이에서 추출된 특징 맵들을 집계하고 융합하여, 다양한 크기의 객체를 탐지하는 데 유용한 다중 스케일 특징 표현(Multi-scale Feature Representation)을 생성하는 역할을 한다. YOLOv9은 이전 버전들과 유사하게 PANet(Path Aggregation Network) 구조를 넥의 기본 골격으로 사용한다.11 PANet은 상향식(Bottom-up) 경로와 하향식(Top-down) 경로를 모두 사용하여 저수준의 공간 정보와 고수준의 의미 정보를 효과적으로 결합한다.

YOLOv9 넥의 핵심적인 차별점은 바로 PGI를 특징 융합 과정에 적극적으로 활용한다는 점이다. 특히, PGI의 ‘다단계 보조 정보’ 구성요소가 이 부분에서 중요한 역할을 한다.11 앞서 설명했듯이, 다단계 보조 정보는 모든 예측 헤드로부터의 경사 정보를 통합하여 완전한 목표 객체 정보를 생성한다. 이 통합된 정보는 넥의 특징 융합 과정에 직접적인 가이드라인을 제공한다. 결과적으로, 넥은 단순히 특징 맵을 기계적으로 결합하는 것이 아니라, 모든 스케일의 객체에 대한 포괄적인 정보를 바탕으로 가장 유의미한 특징들을 선택하고 융합하게 된다. 이는 집계 과정에서 발생할 수 있는 정보 손실을 효과적으로 방지하고, 최종적으로 생성되는 특징 맵의 품질을 크게 향상시킨다.

이처럼 백본에서 GELAN이 효율적인 특징 추출을 담당하고, 넥에서 PGI가 정보 손실 없는 특징 융합을 유도함으로써 두 기술은 완벽한 시너지를 이룬다. GELAN은 PGI가 해결해야 할 정보 병목 문제를 야기할 만큼 충분히 깊고 효율적인 아키텍처를 제공하고, PGI는 그 깊은 GELAN 아키텍처가 처음부터(From scratch) 효과적으로 학습될 수 있도록 신뢰성 있는 경사를 공급하는, 공생적인(Symbiotic) 관계를 형성한다.

5.3. Head: Anchor-Free 예측 및 PGI의 역할

헤드는 넥으로부터 전달받은 최종 특징 맵을 입력으로 받아, 실제 객체의 위치(Bounding Box), 클래스(Class), 그리고 객체 존재 확률(Objectness Score)을 예측하는 마지막 단계이다. YOLOv9은 YOLOv8과 마찬가지로 사전 정의된 앵커 박스(Anchor Box)에 의존하지 않는 Anchor-Free 방식을 채택했다.11 Anchor-Free 방식은 다양한 형태와 크기의 객체에 대해 더 유연하게 대처할 수 있다는 장점이 있다.

헤드의 예측 정확도 역시 PGI의 영향을 받는다. PGI의 ’보조 가역 분기’는 학습 과정 동안 완전한 정보 경로를 유지함으로써, 순방향 및 역방향 전파 과정에서 핵심적인 정보가 손실되지 않도록 보장한다.11 이는 헤드가 더 정확하고 신뢰성 있는 정보를 바탕으로 예측을 수행하게 만든다. 또한, 학습 과정에서는 PGI의 일부로 보조 헤드(Auxiliary Head)가 추가되어 메인 헤드의 학습을 돕고, 추론 시에는 제거되어 효율성을 유지한다.14

결론적으로 YOLOv9의 아키텍처는 GELAN과 PGI라는 두 축이 백본, 넥, 헤드 전반에 걸쳐 긴밀하게 상호작용하도록 설계되었다. GELAN이 효율적인 정보 처리의 ’뼈대’를 제공한다면, PGI는 그 뼈대를 따라 정보와 경사가 손실 없이 흐르도록 하는 ‘신경망’ 역할을 수행하여, 전체 시스템이 최적의 성능을 발휘하도록 만든다.

VI. 성능 평가 및 비교 분석

YOLOv9의 기술적 우수성을 객관적으로 입증하기 위해서는 정량적인 성능 평가가 필수적이다. 논문에서는 표준 벤치마크인 MS COCO 데이터셋을 사용하여 기존의 최첨단(State-of-the-art, SOTA) 실시간 객체 탐지기들과의 광범위한 성능 비교를 수행했다. 또한, 소거법 연구를 통해 PGI와 GELAN 각 기술의 기여도를 과학적으로 검증했다. 본 장에서는 이러한 실험 결과들을 심층적으로 분석하고, 벤치마크를 넘어선 실제 적용 시의 잠재적 한계점까지 고찰한다.

6.1. MS COCO 벤치마크 종합 분석

MS COCO 데이터셋은 80개의 객체 클래스와 33만 장 이상의 이미지를 포함하는 대규모 객체 탐지 벤치마크로, 모델의 성능을 평가하는 표준 척도로 널리 사용된다.21 YOLOv9은 이 데이터셋에서 기존의 모든 실시간 객체 탐지기들을 능가하는 압도적인 성능을 기록했다. 주요 성능 지표는 파라미터 수(Parameters), 연산량(FLOPs), 그리고 평균 정밀도(mAP)이다.

아래 표 1은 YOLOv9과 다른 SOTA 모델들의 성능을 종합적으로 비교한 것이다.1

모델#Param. (M)FLOPs (G)APval 50:95 (%)APval 50 (%)APval 75 (%)APval S (%)APval M (%)APval L (%)
YOLOv7 AF43.6130.553.070.257.535.858.768.9
YOLOv8-X68.2257.853.971.058.735.759.370.7
DAMO YOLO-L42.197.350.867.555.533.255.766.6
YOLO MS22.280.251.068.655.733.156.166.5
YOLOv9-S (Ours)7.126.446.863.450.726.656.064.5
YOLOv9-M (Ours)20.076.351.468.156.133.657.068.0
YOLOv9-C (Ours)25.3102.153.070.257.836.258.569.3
YOLOv9-E (Ours)57.3189.055.672.860.640.261.071.4

표 1의 결과를 통해 YOLOv9의 뛰어난 효율성과 정확성을 확인할 수 있다. 몇 가지 주요 비교 포인트를 분석하면 다음과 같다.

  • YOLOv9-C vs. YOLOv7 AF: YOLOv9-C 모델은 YOLOv7 AF와 동일한 53.0%의 AP(Average Precision)를 달성하면서도, 파라미터 수는 42% 더 적고(25.3M vs 43.6M), 계산량은 21% 더 적다(102.1G vs 130.5G).1 이는 GELAN 아키텍처의 월등한 효율성을 보여준다.
  • YOLOv9-E vs. YOLOv8-X: 가장 큰 모델인 YOLOv9-E는 이전 세대 최상위 모델인 YOLOv8-X와 비교했을 때, 파라미터 수를 15~16% 줄이고(57.3M vs 68.2M) 계산량을 25~27% 감소시켰음에도 불구하고(189.0G vs 257.8G), AP는 오히려 1.7%p나 향상된 55.6%를 기록했다.1 이는 PGI를 통한 학습 효율 개선이 대형 모델에서 특히 큰 효과를 발휘함을 시사한다.
  • 사전 학습 모델과의 비교: 더욱 놀라운 점은, 처음부터(Train-from-scratch) 학습된 YOLOv9이 ImageNet과 같은 대규모 데이터셋으로 사전 학습(Pre-training)된 RT DETR과 같은 모델들의 성능을 능가했다는 것이다.1 이는 PGI가 정보 손실을 효과적으로 막아주어, 사전 학습 없이도 데이터로부터 충분한 정보를 학습할 수 있게 해주었음을 의미한다.

이러한 결과들은 YOLOv9이 단순히 점진적인 성능 향상을 이룬 것이 아니라, 정확도와 효율성 측면에서 새로운 기준(Benchmark)을 세웠음을 명백히 보여준다.

6.2. 핵심 기술 기여도 검증: Ablation Studies

YOLOv9의 뛰어난 성능이 실제로 PGI와 GELAN에서 비롯된 것인지를 과학적으로 증명하기 위해, 논문에서는 여러 소거법 연구를 수행했다. 이 연구들은 각 기술 요소를 하나씩 추가하거나 제거하면서 성능 변화를 측정하여, 해당 요소의 순수한 기여도를 분리해낸다.

가장 중요한 소거법 연구 중 하나는 PGI를 기존의 심층 지도(Deep Supervision, DS) 방식과 직접 비교한 것이다. 그 결과는 아래 표 2에 요약되어 있다.1

모델기준 APval 50:95+ DS (성능 변화)+ PGI (성능 변화)
GELAN-S46.7%46.5% (↓ 0.2)46.8% (↑ 0.1)
GELAN-M51.1%51.2% (↑ 0.1)51.4% (↑ 0.3)
GELAN-C52.5%52.5% ( - )53.0% (↑ 0.5)
GELAN-E55.0%55.3% (↑ 0.3)55.6% (↑ 0.6)

표 2는 PGI의 혁신성을 명확하게 보여준다. 전통적인 심층 지도 방식(DS)은 가장 작은 모델인 GELAN-S에서는 오히려 성능을 0.2%p 하락시켰고, 다른 모델에서도 성능 향상 폭이 불안정하거나 미미했다. 이는 얕은 모델에서는 정보 손실 문제가 심각하지 않아 불필요한 보조 감독이 오히려 학습을 방해할 수 있음을 시사한다. 반면, PGI는 가장 작은 모델부터 가장 큰 모델에 이르기까지 모든 크기의 모델에서 일관되게 성능을 향상시켰다. 특히 모델이 커질수록 성능 향상 폭(GELAN-E에서 +0.6%p)이 더 커지는 경향을 보였다.

이 결과는 PGI가 정보 병목 문제를 보다 근본적이고 강건하게 해결하는 메커니즘임을 실증한다. PGI는 기존 심층 지도가 실패했던 얕은 모델에도 보조 감독을 성공적으로 적용할 수 있게 만들었으며, 깊은 모델의 학습에는 더욱 신뢰성 있는 경사를 제공하여 잠재력을 최대한으로 이끌어냈다.

6.3. 벤치마크를 넘어선 성능: 한계와 반론

MS COCO 벤치마크에서의 SOTA 달성이 모든 실제 환경에서의 우월성을 보장하는 것은 아니다. 전문가 수준의 안내서는 모델의 잠재적 한계와 반론 또한 균형 있게 다루어야 한다.

  • 양자화 민감성(Quantization Sensitivity): 일부 사용자 보고에 따르면, YOLOv9을 엣지 디바이스 배포를 위해 INT8 정밀도로 양자화(Quantization)했을 때 YOLOv8에 비해 심각한 성능 저하가 발생했다는 사례가 있다. 한 실험에서는 YOLOv9-S의 mIoU가 49.50으로, 동일 조건의 YOLOv8-S(89.20)에 비해 현저히 낮게 측정되었다.24 이는 PGI가 만들어내는 정교하고 복잡한 정보 경로가 양자화 과정에서 발생하는 정보 손실에 더 민감하게 반응할 수 있음을 시사한다. 학습 시 완전한 정보를 보존하기 위해 설계된 메커니즘이, 배포를 위한 정보 압축 과정에서는 오히려 취약점으로 작용할 수 있다는 것이다. 이는 이론적 최적성과 실제적 강건성 사이의 잠재적 상충 관계를 보여주는 중요한 지점이다.
  • 정밀도-재현율 트레이드오프: 특정 커스텀 데이터셋을 이용한 비교 실험에서는 YOLOv8이 더 높은 재현율(Recall, 실제 객체를 놓치지 않는 비율)을 보이는 반면, YOLOv9은 더 높은 정밀도(Precision, 예측한 것들 중 실제 객체의 비율)를 보이는 경향이 나타났다.15 즉, YOLOv9은 더 보수적으로 판단하여 거짓 양성(False Positive)은 적지만, 일부 실제 객체를 놓치는 거짓 음성(False Negative)은 더 많을 수 있다는 것이다. 이는 애플리케이션의 요구사항에 따라 모델 선택이 달라져야 함을 의미한다.
  • 후속 모델과의 비교: YOLOv9 출시 이후 등장한 YOLOv10과 비교했을 때, YOLOv9은 일반적으로 더 높은 추론 지연 시간(Latency)을 보인다.26 또한 PGI의 도입으로 인해 아키텍처의 복잡성이 이전 버전에 비해 증가했다는 평가도 있다.10
  • 작은 객체 탐지 성능: YOLO 계열의 고질적인 문제 중 하나인 작은 객체 탐지 성능에 있어서 YOLOv9 역시 여전히 한계를 가질 수 있다는 지적이 있다.27

이러한 한계점들은 YOLOv9이 모든 시나리오에서 절대적으로 우월한 만능 솔루션은 아님을 보여준다. 사용자는 자신의 특정 과업, 데이터셋 특성, 그리고 배포 환경(서버, 엣지 디바이스 등)을 종합적으로 고려하여 최적의 모델을 선택해야 한다.

VII. 종합 고찰 및 전망

YOLOv9은 실시간 객체 탐지 분야에서 단순한 성능 향상을 넘어, 심층 신경망의 근본적인 한계를 해결하려는 새로운 연구 패러다임을 제시했다는 점에서 중요한 의미를 갖는다. 본 장에서는 YOLOv9의 기술적 기여와 학술적 의의를 종합하고, 실제 적용 분야와 잠재적 한계, 그리고 향후 연구 방향을 조망한다.

7.1. YOLOv9의 기술적 기여와 학술적 의의

YOLOv9의 핵심적인 기술적 기여는 PGI와 GELAN의 개발로 요약할 수 있다.1

  • 정보 병목 문제에 대한 실용적 해결책 제시: PGI는 정보 병목이라는 이론적 문제를 해결하기 위해 가역 함수 개념을 도입하되, 추론 비용을 증가시키지 않는 ’보조 가역 분기’라는 독창적인 공학적 해법을 제시했다. 이는 이론과 실제 사이의 간극을 성공적으로 메운 사례이다.
  • 보조 감독의 적용 범위 확장: PGI는 기존의 심층 지도 방식이 실패했던 얕거나 가벼운 모델에도 보조 감독을 효과적으로 적용할 수 있음을 증명했다.16 이는 리소스가 제한된 환경에서도 고성능 모델을 훈련시킬 수 있는 새로운 가능성을 열었다.
  • 효율적 아키텍처 설계의 새로운 방향 제시: GELAN은 거시적인 네트워크 토폴로지와 경사 경로 계획을 통해, 널리 쓰이던 깊이별 컨볼루션 없이도 더 뛰어난 파라미터 효율성을 달성할 수 있음을 보여주었다. 이는 향후 네트워크 설계 연구에 중요한 영감을 제공한다.

학술적으로 YOLOv9은 정보 이론과 같은 기초 학문 분야의 개념을 최첨단 엔지니어링 시스템에 성공적으로 접목시킨 모범 사례로 평가받을 수 있다. 이는 경험적인 아키텍처 탐색에 의존하던 기존의 연구 방식에서 벗어나, 근본적인 이론적 문제 해결이 더 큰 성능 향상을 가져올 수 있음을 입증했다. YOLOv9의 성공은 딥러닝 연구 커뮤니티 전체에 ’핵심 이론적 한계 식별 → 이론에 기반한 실용적 공학 솔루션 고안 → 고성능 구현을 통한 검증’이라는 연구 방법론의 가치를 재확인시켜 주었다.

7.2. 실제 적용 분야 및 잠재적 활용 사례

YOLOv9의 높은 정확도와 효율성, 그리고 다양한 모델 크기(v9-S, M, C, E)의 제공은 광범위한 실제 산업 분야에 적용될 잠재력을 가진다.11

  • 자율 주행 및 지능형 교통 시스템: 차량, 보행자, 신호등 등 도로 위의 다양한 객체를 빠르고 정확하게 탐지하여 실시간 의사결정을 지원할 수 있다.28
  • 스마트 팩토리 및 물류: 생산 라인에서의 불량품 검사, 창고 내 재고 관리 및 자동 분류, 로봇의 경로 탐색 및 물체 조작 등에 활용될 수 있다.11
  • 보안 및 감시: CCTV 영상에서 침입자나 이상 행동을 실시간으로 감지하고, 군중 속에서 특정 인물을 식별하는 등 보안 시스템의 지능화를 이끌 수 있다.28
  • 의료 영상 분석: X-ray, CT, MRI 이미지에서 종양이나 병변과 같은 이상 부위를 자동으로 탐지하여 의료진의 진단을 보조하는 역할을 수행할 수 있다.28
  • 농업 및 환경 모니터링: 드론이나 위성 이미지 분석을 통해 작물의 성장 상태를 모니터링하고, 병충해를 조기에 발견하며, 산불이나 불법 벌목을 감시하는 데 사용될 수 있다.28
  • IoT 및 엣지 컴퓨팅: v9-S와 같은 경량 모델은 계산 자원이 제한된 소형 IoT 기기나 모바일 장치에 탑재되어, 현장에서 즉각적인 데이터 분석 및 반응을 가능하게 한다.11

7.3. 한계점 및 향후 연구 방향

모든 기술적 진보와 마찬가지로, YOLOv9 역시 새로운 과제와 연구 방향을 제시한다.

  • 양자화 강건성 향상: PGI의 복잡한 구조가 양자화에 민감할 수 있다는 점은 중요한 한계이다. 향후 연구는 PGI와 같은 정교한 정보 보존 메커니즘이 양자화와 같은 후처리 과정에서도 성능을 유지할 수 있도록 하는 ‘양자화 친화적(Quantization-aware)’ 학습 기법이나 아키텍처 설계에 초점을 맞출 필요가 있다.
  • 작은 객체 탐지 성능 개선: YOLO 계열의 오랜 숙원인 작은 객체 탐지 성능을 더욱 향상시키기 위한 연구가 지속되어야 한다.27 PGI의 정보 보존 능력을 저해상도 특징 맵에 더욱 효과적으로 적용하는 방안을 모색할 수 있다.
  • ‘학습 비계’ 패러다임의 일반화: PGI가 제시한 ’학습 시에만 사용되는 보조 구조’라는 개념은 객체 탐지를 넘어 이미지 분할(Segmentation), 분류(Classification) 등 다른 컴퓨터 비전 과제에도 적용될 수 있다. 이 ‘학습 비계’ 패러다임의 일반화 가능성을 탐구하는 것은 매우 흥미로운 연구 주제가 될 것이다.

결론적으로, YOLOv9은 객체 탐지 기술의 역사에서 중요한 이정표를 세웠다. 이는 단순히 더 높은 mAP 점수를 기록한 모델을 넘어, 심층 신경망의 본질적인 한계를 극복하기 위한 새로운 접근법을 제시하고 성공적으로 구현했다는 점에서 그 의의가 크다. YOLOv9이 남긴 과제와 가능성은 앞으로의 컴퓨터 비전 연구를 더욱 풍요롭게 만드는 원동력이 될 것이다.

참고 자료

  1. arXiv:2402.13616v2 [cs.CV] 29 Feb 2024, 8월 24, 2025에 액세스, https://arxiv.org/abs/2402.13616
  2. [R] YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information : r/MachineLearning - Reddit, 8월 24, 2025에 액세스, https://www.reddit.com/r/MachineLearning/comments/1b0ep3a/r_yolov9_learning_what_you_want_to_learn_using/
  3. Paper Review: YOLOv9: Learning What You Want to Learn Using …, 8월 24, 2025에 액세스, https://artgor.medium.com/paper-review-yolov9-learning-what-you-want-to-learn-using-programmable-gradient-information-8ec2e6e13551
  4. YOLOv9: A Leap Forward in Object Detection Technology - Ultralytics YOLO Docs, 8월 24, 2025에 액세스, https://docs.ultralytics.com/models/yolov9/
  5. YOLOv9: SOTA Object Detection Model Explained - Encord, 8월 24, 2025에 액세스, https://encord.com/blog/yolov9-sota-machine-learning-object-dection-model/
  6. YOLOv9 Object Detection Model: What is, How to Use - Roboflow, 8월 24, 2025에 액세스, https://roboflow.com/model/yolov9
  7. Performance Evaluation of YOLOv8, YOLOv9, YOLOv10, and YOLOv11 for Stamp Detection in Scanned Documents - MDPI, 8월 24, 2025에 액세스, https://www.mdpi.com/2076-3417/15/6/3154
  8. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 8월 24, 2025에 액세스, https://arxiv.org/html/2402.13616v1
  9. YOLOv9 - A Comprehensive Guide and Custom Dataset Fine-Tuning | Datature Blog, 8월 24, 2025에 액세스, https://datature.io/blog/yolov9-a-comprehensive-guide-and-custom-dataset-fine-tuning
  10. INTELLIGENT SYSTEMS AND APPLICATIONS IN ENGINEERING Unveiling the Potential of YOLOv9 through Comparison with YOLOv8, 8월 24, 2025에 액세스, https://www.ijisae.org/index.php/IJISAE/article/download/5794/4539/10871
  11. What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector - arXiv, 8월 24, 2025에 액세스, https://arxiv.org/html/2409.07813v1
  12. YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information, 8월 24, 2025에 액세스, https://www.semanticscholar.org/paper/YOLOv9%3A-Learning-What-You-Want-to-Learn-Using-Wang-Yeh/cf70392a3b1ae92fdb1b70448aaddcbd03726d3d
  13. YOLOv9 architecture featuring CSPNet, ELAN, and GELAN modules. CSPNet… | Download Scientific Diagram - ResearchGate, 8월 24, 2025에 액세스, https://www.researchgate.net/figure/YOLOv9-architecture-featuring-CSPNet-ELAN-and-GELAN-modules-CSPNet-optimizes-gradient_fig4_385510373
  14. The network architecture of YOLOv9. it consists of three parts - ResearchGate, 8월 24, 2025에 액세스, https://www.researchgate.net/figure/The-network-architecture-of-YOLOv9-it-consists-of-three-parts-The-backbone-the-neck_fig2_383840176
  15. YOLOv9 vs YOLOv8? Comparing Platform Performance - Folio3 AI, 8월 24, 2025에 액세스, https://www.folio3.ai/blog/yolov9-vs-yolov8/
  16. YOLOv9: Advancements in Real-time Object Detection - Viso Suite, 8월 24, 2025에 액세스, https://viso.ai/computer-vision/yolov9/
  17. YOLOv9 Architecture Explained - YouTube, 8월 24, 2025에 액세스, https://www.youtube.com/watch?v=oZ6I1VHpil0
  18. Understanding Multi-Headed Yolo-v9 for Object Detection and Segmentation - Medium, 8월 24, 2025에 액세스, https://medium.com/@srddev/understanding-multi-headed-yolo-v9-for-object-detection-and-segmentation-8923ee21b652
  19. YOLOv8 vs. YOLOv9: A Comparative Analysis of Single-Stage Object Detection Models, 8월 24, 2025에 액세스, https://kunalkumarsahooai.hashnode.dev/yolo-comparison
  20. YOLOv9 Architecture Explained - Stunning Vision AI, 8월 24, 2025에 액세스, https://stunningvisionai.com/article/yolov9-architecture
  21. COCO Dataset - Ultralytics YOLO Docs, 8월 24, 2025에 액세스, https://docs.ultralytics.com/datasets/detect/coco/
  22. YOLOv9 for Object Detection. What is YOLO? | by Rabin Sikder | Data Reply IT | DataTech, 8월 24, 2025에 액세스, https://medium.com/data-reply-it-datatech/yolov9-for-object-detection-d76d25918ecb
  23. What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector - ResearchGate, 8월 24, 2025에 액세스, https://www.researchgate.net/publication/383985661_What_is_YOLOv9_An_In-Depth_Exploration_of_the_Internal_Features_of_the_Next-Generation_Object_Detector
  24. Difference in performance between YoloV8 and YoloV9 · Issue #14053 - GitHub, 8월 24, 2025에 액세스, https://github.com/ultralytics/ultralytics/issues/14053
  25. Comparative Analysis of YOLOv9 and YOLOv8 Using Custom Dataset on Encord Active, 8월 24, 2025에 액세스, https://encord.com/blog/performanceyolov9-vs-yolov8-custom-dataset/
  26. YOLOv10 vs. YOLOv9: A Technical Comparison - Ultralytics YOLO Docs, 8월 24, 2025에 액세스, https://docs.ultralytics.com/compare/yolov10-vs-yolov9/
  27. Taking Object Detection to the Next Level with YOLOv9: A Breakthrough in Deep Learning, 8월 24, 2025에 액세스, https://medium.com/@esmnralicann/taking-object-detection-to-the-next-level-with-yolov9-a-breakthrough-in-deep-learning-aa60cbd35199
  28. What is YOLOv9? The Next Evolution in Object Detection - DEV Community, 8월 24, 2025에 액세스, https://dev.to/abhinowww/what-is-yolov9-the-next-evolution-in-object-detection-57hb
  29. The YOLO Framework: A Comprehensive Review of Evolution, Applications, and Benchmarks in Object Detection - MDPI, 8월 24, 2025에 액세스, https://www.mdpi.com/2073-431X/13/12/336